此資料是由University of Nevada的梁靜農教授所提供。資料中涵蓋17個人(14位正常人及3位中風患者)其脛前肌與比目魚肌抑制關係的實驗相關結果,而資料分析目的在於想要了解正常人與中風患者在脛前肌與比目魚肌抑制關係的差異。在分析結果中,我們使用一個二階模型來描述資料的34隻腳,且用 Euclidean Distance 針對正常人/中風患者進行分類。最後,我們嘗試針對抑制比提出一個新的想法,並且與目前公認的抑制比公式進行比較。
針對資料中的34隻腳,我們目標在於建立一個模型,讓每個人的每隻腳都能使用該模型去描述“脛前肌收縮狀態”對“比目魚肌收縮狀態”的影響,且模型能夠對於每隻腳都有不錯、合理的描述。
若以統計模型表示,則此問題可以描述成: \(比目魚肌收縮程度 = f(脛前肌收縮程度)+\epsilon\)
自Problem 1的模型中,希望可以從資料找到一些特徵,且該特徵在中風患者的表現與正常人的表現上,差異能夠越大越好。
而此處的特徵是指模型的參數估計量、以及評估參數估計量好壞的數值(如:標準誤、P-value)等。
若以數學的概念表示,則此問題可以描述成:
尋找\(f(X)\)的特徵, \(w_{i,j} \ni w_{t_1,j} \in W_1 , w_{t_2,j} \in W_2\) ,
where
\((1) i = 1 , ... , 34 , j = 第j種特徵\)
\((2) W_1: 正常人的特徵 , W_2:中風患者的特徵 ( i_1 \in {1,...,28} , i_2 \in {29,...,34} )\)
目標 : \(w_{t_1,j}與w_{t_2,j}的差異越大越好\)
從Problem 2所找出的特徵中,使用可以清楚區分中風患者與正常人的特徵制定出一個標準,以便將每隻腳對於是否屬於中風患者而進行分類。
(若結果允許,此處也可能考慮將資料中的34隻腳針對這些特徵分成三類,分別為: 中風患者受中風影響的腳、中風患者的正常腳、正常人的腳)
對於目前公認的抑制比估計方法,將Problem 1 的模型進行套用與修改。
其概念為 : \(\frac{f(X_{max}) - f(X_{min})}{f(X_{max})}\),其中f(.)為Problem 1所使用的函數,\(X_{max}\)以及\(X_{min}\)則為每隻腳的最大/最小\(X\)值。
或是嘗試提出一個新的估計量,並且與原本的抑制比估計方法進行比較。
其概念為 : \(脛前肌對比目魚肌的抑制比 = g \left(f(.),X_{max},X_{min}\right)\),其中\(f(.)、X_{max}\)以及\(X_{min}\)如上方所述。
資料處理示意圖如下:
其中:
人編號: 1-14為正常人,15-17為中風患者。編排順序則與原先所得資料相同 (NI001, …, NI016, CVA003, CVA004, CVA005)。
後續我們會以“第幾個人”表示之。其中第15至第17人分別為中度/重度/輕度中風患者。
左右/好壞腳: 在正常人的資料中,可以分為左右腳。而中風患者並無左右腳的資訊,但有好壞腳的資訊。其中好腳為中風患者的正常腳,壞腳則為中風患者受中風所影響的腳。
腳編號: 資料中34隻腳的編排順序與人編號相同。而正常人以先左腳後右腳的順序編排,中風患者則以先好腳後壞腳的順序編排。
(NI001左腳, NI001右腳, …, NI016左腳, NI016右腳, CVA003好腳, CVA003壞腳, …, CVA005好腳, CVA005壞腳)
scale_X 的數值為: AntagonistBG (X)的數值,針對每一隻腳,分別除以該腳的最大AntagonistBG (X)數值。
左右腳、好壞腳、沒病/中風、ID2-14,16, 17: 簡述之,由於我們是使用一個模型涵蓋這34隻腳,以進行模型配適及描述狀況。這些變數不妨可以看成是可以從模型中辨別是哪隻腳的變數。若以統計的角度進行說明,由於資料是nesting的結構,因此我們須先將資料區分成正常人以及中風患者,其中正常人又可以分成左腳與右腳、中風患者又可以分成好腳與壞腳。而關於人的區分方式,則是以Dummy Variable(ID2-14,16, 17)處理。
畫出1-14個正常的左右腳圖形,以下這個兩個圖的X軸我們放的是已經Scale過的X,Y軸放的是ppresponse,從左上角的第一張分別是第一個正常人的左腳和右腳,再來是放第二個人的左右腳以此類推,第二張圖的最後三個圖為三個病人分別為中度重度以及輕度,那紅色點代表病人的好腳,綠色點代表病人的壞腳。
可以發現在正常人中每個人的圖形有一定的規律,大致為一個圓滑的L型圖案,並且每個人的轉折點位置不一致,有的人的轉折點比較靠近Scale X偏小的地方,有的比較靠近Scale X,並且有些人的左右腳其實仍有差距存在,但在病人的雙腳中,可以發現病人壞腳較無L的規律,但病人好腳中仍有存在著L的規律,但較不明顯。
再來我們好奇,假如把同一個人的資料只分成休息與沒休息時圖形呈現為何,以下兩張圖的X軸為ScaleX,y軸為ppResponse,並且每個人的左右腳疊加在一起,紅色點為休息狀態的資料,綠色點為出力狀態的資料點,可以發現不管左腳右腳好腳壞腳的休息狀態都會在前端,因此可以聯想到抑制比,每個人的休息狀態的點,可以當成每個人的Baseline,因為那是每個人的最原始的狀態,再和出力狀態的做比較和轉換,可以換得每個人的中風狀態。
假如我們把所有人的所有數據畫在同一張圖上,x軸放ScaleX,y軸放ppresponse,紅色的點代表所有正常人的數據點,綠色點代表所有病人的數據點,由這張圖可以確認,病人的規律明顯和正常人不同。
緊接著我們倆探討每一隻腿之間的差距關係,因此我們畫了統計上常用的Box plot。 Box plot的中文翻譯是箱型圖,他是一種可以探討數據分散情況的統計圖,箱子的中間那條線代表的是全部數據最中間的那個數,也就是前50%的資料點,統計上稱為「中位數」(median),而箱子的下方那條線代表的是前25%的數據量,那箱子的上方那條線代表前75%的數據量,箱子最上以及最下方延伸出去的線則可以代表說這筆數據有多少離群點,因此我們可以用箱型圖來簡單探討數據的分佈。 下面這張圖是全部人的腳,總共34隻,可以觀察到就算是同一個人,他們的兩隻腳也可能有差距,像是第一位正常人的兩隻腳,中位數的地方就有明顯的差距,重度患者的雙腳差距甚大,幾乎所有數據的分佈位置都不一樣,也就是說從這張圖,我們覺得每隻腳的差異大;此外,我們也觀察出來左右兩隻腳、好腳與壞腳的箱型圖也有些差距,因此我們偏向對每一隻腳做建模的動作,而不是對每隻個人。
因為從上一張整體圖形,我們發現可能病人中的好腳與壞腳之間有差距,所以我們對所有病人的好腳壞腳綜合起來看,紅色代表是病人的壞腳,綠色代表病人的好腳,可以發現病人的壞腳中位數都比好腳的中位數低,第一四分位距跟第三四分位距都相差有一段距離。
接著看正常人中的左右腳是否有差異,我們把所有的正常人左右腳的數據綜合來看,紅色箱型圖為正常人的左腳,綠色為正常人的右腳,y軸為ppresponse,由此圖似乎沒有像病人的好壞腳差距那麼大,在正常人的左右腳中,中位數都落在差不多的位置,第一以及第三四分位距也相近,唯一左腳的離群點比較多些,推論應該是屬於第一位正常的腳,因為第一位病人的腳ppresponse有偏大的值。
接下來我們想用一條平滑曲線來代表一隻腿的圖形,那這條平滑曲線我們會採用統計母數中的一個方法稱為「局部多項式」,首先我們會先開一個小的區間,在這個區間中用數學泰勒展開的方式去逼近這個區間中的函數,所以下兩張圖是我們用此方法去畫出每一隻腳的一條平滑函數,接著的內容會去探討這些函數彼此間的關係。
首先我們先把所有正常的左右腳曲線分別用黑色與紅色來代表他,綠色線代表病人的好腳加入,下圖的x軸為Scale X,y軸放ppresponse,我們可以明顯地看出這三個顏色的曲線的圖形是彎曲曲線,越靠近x偏小的地方正常人的腳彎曲程度比較大,但病人的好腳的彎曲程度明顯比正常人來的低。
假如單看加入病人壞腳的圖形進來看的話,可以發現病人壞腳的曲線幾乎沒有像是正常人好腳一樣的彎折狀況,比較偏向水平線。
那接下來我們對這34條線取一次微分,在數學上一次微分的意思代表找線的每一個點的斜率,那我們一開始想找斜率的想法來自說正常人的每一條線都有一定的曲度,可是病人的雙腳的曲線的曲度卻沒有正常人來的彎曲,那曲度可以用斜率來表達,因此我們想看看到底差距有多少。 下面的圖的x軸為Scale x,y軸為估計ppresponse的斜率值,我們先畫出正常人的28隻腳的曲線的一次微分曲線,可以發現在x偏小的地方大家的斜率都由負的轉正的,也就代表說一開始大家會遇到斜率很陡的開頭,然後漸漸地轉彎後變平緩。
假如我們把病人的雙腳曲線也加入探討的話,綠色曲線為病人的好腳,藍色曲線為病人的壞腳,可以很明顯的發現病人的斜率真的如同我們想的一樣十分的平緩,與正常人的雙腳曲線有明顯的差異存在。
在這部分,我們推薦的模型為二次多項式回歸模型,其具如下形式:
其中有幾個地方須特別注意:
上述所列 \(1,2,3\) 分別對應下圖中相應的部分
下圖中 \(A\) 為我們所推薦輸入為整筆資料 \(4462\) 個樣本的方法,\(B\) 為每隻腳分別去配適的方法,輸入為每隻腳分別的樣本數
接下來我們將以 \(2\) 號正常人的左腳來做舉例:
| 人編號 | 左腳-1右腳1 | 好腳-1壞腳1 | ppResp (Y) | 沒病0中風1 | scale_X | ID2 | ID3 | ID4 |
|---|---|---|---|---|---|---|---|---|
| 2 | -1 | 0 | 2.941895 | 0 | 0.2157098 | -1 | 0 | 0 |
| 2 | -1 | 0 | 2.973498 | 0 | 0.2232633 | -1 | 0 | 0 |
| 2 | -1 | 0 | 2.928929 | 0 | 0.2237095 | -1 | 0 | 0 |
| 2 | -1 | 0 | 2.830877 | 0 | 0.2255610 | -1 | 0 | 0 |
| 2 | -1 | 0 | 2.944812 | 0 | 0.2293764 | -1 | 0 | 0 |
| 2 | -1 | 0 | 2.885332 | 0 | 0.2294466 | -1 | 0 | 0 |
細節如下:
考慮權重之所以可以減輕尾端向上情況的解釋如下:
結果如下,我們已成功將尾端壓下來且前端配適的仍可接受,此時的 \(R^2 = 0.8564\)
根據以上分析,我們認為 \(Y\) 與 \(X\) 直接的關係比較難去model,故我們透過將 \(Y\) 做 \(\log\) 轉換來描述他們之間的關係。
我們可以發現到壞腳的曲線都很不明顯,且對於每隻腳斜率看起來也不盡相同,故我們考慮將截距項係數、一次項係數及二次項係數拿出來看看,是否在各種腳中看得出不同的趨勢
Euclidean Distance 的公式為: \[D = \sqrt{r_1^2 + r_2^2 + r_3^2}\] 其中 \(r_1, r_2, r_3\)分別代表截距項係數、一次項係數及二次項係數
結果 \((34 \text{隻腳的}D)\) 呈現如下圖:
由於原先對於抑制比的定義偏重於將脛前肌於放鬆狀態的比目魚肌與脛前肌在最大收縮狀態時的比目魚肌進行比較,在這樣的定義下由於只注重左、右兩端點,造成固定兩端點下,其實不同的曲線都會得到同樣的抑制比。對於在脛前肌較放鬆時,比目魚肌如果很快地被迫放鬆(曲線很陡),那這樣的抑制效果應該是比慢慢地被迫放鬆(曲線較平緩)來的強大。因此我們將嘗試於此節提出新估計量,試圖將兩端點之外的資訊也包含在其中(包括斜率、彎曲程度等等),並於後續討論其優缺點及目前的缺陷,再與原本定義的抑制比進行比較。
對於每一隻腳,我們可以根據前面線性模型的分析結果繪製一條曲線代表之,我們若將此曲線的最左端與最右端連線將可形成一條直線,再將此腳的脛前肌最放鬆X值、最收縮X值分別繪製一條垂直線,我們便可將整個圖形區分為A、B兩個部分,如下圖所示:
我們可將新的估計量定義為
\[\frac{A面積}{A面積+B面積}\]
假設上方這條曲線往右上角靠近,這就造成了A面積縮小,B面積變大,A面積+B面積不變,但估計量的估計值下降。變動後的曲線直觀上的意義為抑制作用的效果降低了,沒有像原先那麼強大,這就會與估計值的表現一致;若曲線向左下角靠近,A面積變大,B面積變小,估計量的估計值增加。變動後的曲線直觀上的意義為抑制作用的效果增強了,脛前肌在收縮程度偏小的地方只要增加一點點收縮力,比目魚肌就會受到抑制作用非常大的影響而快速放鬆,這依舊與估計值的表現一致。
假設曲線向上平移,也就是脛前肌出力時,比目魚肌的放鬆狀況不理想,抑制作用在脛前肌較用力時效果不顯著,則A面積不變,B面積增加,估計量的估計值下降,值的表現與解釋一致,反之亦然。
依據上面的定義方式,新估計量的估計結果如上,中風患者其兩腳的數值值皆小於0.46。
雖然上面這個新估計量的定義方式看起來還不錯,有將曲線的斜率以及彎曲程度表現於估計量中,但我們會發現對於一條被估計為“直線”的腳,其在此定義下的估計值會變成0,這並不是我們所樂見的,因為即使該腳的曲線被我們估計為直線,其抑制效果依舊正常作用,被我們估計為0是非常不合理的,因此我們可將這個新估計量的定義方式做些修改:
我們一樣延續原本的定義概念,但將“A面積的定義”改動一下成為
在這樣的定義下,原先提到的“斜直線估計”問題,就可以被我們解決了,被我們估計成斜直線的腳,其新定義估計量的估計值會成為0.5。
我們若使用修正過的定義法去估計34隻腳,其結果如下:
可以發現第15位(中度中風患者)的好腳其估計值離正常人很接近,而第17位(輕度中風患者)的好腳估計數值竟比其壞腳低了一些。雖然此修正估計法解決了斜直線的矛盾問題,但對於每隻腳的估計效果似乎沒有修正前那麼好。
接下來,我們將列出3種數值估計法的表格進行比較,第一種為我們的新定義估計法(未修正),第二種為我們的新定義估計法(修正後),第三種為梁老師原始的估計法
| 腳編號 | 新定義估計法.未修正. | 新定義估計法.修正後. | 原抑制比 | 未修正的新定義與原抑制比的差 | 修正後的新定義與原抑制比的差 |
|---|---|---|---|---|---|
| 第一人左腳 | 0.6643591 | 0.8205890 | 0.9593923 | 0.2950333 | 0.1388034 |
| 右腳 | 0.6853330 | 0.8211426 | 0.9202813 | 0.2349483 | 0.0991387 |
| 第二人左腳 | 0.6001345 | 0.7959202 | 0.9476877 | 0.3475532 | 0.1517675 |
| 右腳 | 0.3646117 | 0.6380014 | 0.8251990 | 0.4605873 | 0.1871976 |
| 第三人左腳 | 0.8080988 | 0.8922559 | 0.9852628 | 0.1771639 | 0.0930069 |
| 右腳 | 0.7723058 | 0.8796734 | 0.9541657 | 0.1818599 | 0.0744923 |
| 第四人左腳 | 0.7645952 | 0.8448807 | 0.9637909 | 0.1991957 | 0.1189102 |
| 右腳 | 0.7507638 | 0.8694631 | 0.9528360 | 0.2020722 | 0.0833729 |
| 第五人左腳 | 0.7699699 | 0.8797585 | 0.9687903 | 0.1988204 | 0.0890318 |
| 右腳 | 0.6697784 | 0.8181601 | 0.9451243 | 0.2753459 | 0.1269642 |
| 第六人左腳 | 0.6054163 | 0.7620144 | 0.7922055 | 0.1867892 | 0.0301911 |
| 右腳 | 0.6160788 | 0.7250051 | 0.8433736 | 0.2272948 | 0.1183685 |
| 第七人左腳 | 0.6036473 | 0.7820754 | 0.8159016 | 0.2122544 | 0.0338262 |
| 右腳 | 0.6045930 | 0.7812861 | 0.7574243 | 0.1528314 | -0.0238618 |
| 第八人左腳 | 0.7696326 | 0.8736498 | 0.9427268 | 0.1730942 | 0.0690771 |
| 右腳 | 0.8148866 | 0.8981697 | 0.9472274 | 0.1323408 | 0.0490577 |
| 第九人左腳 | 0.7463432 | 0.8580276 | 0.9069761 | 0.1606329 | 0.0489485 |
| 右腳 | 0.7594782 | 0.8665561 | 0.9425241 | 0.1830460 | 0.0759680 |
| 第十人左腳 | 0.4703902 | 0.5918360 | 0.6408847 | 0.1704945 | 0.0490487 |
| 右腳 | 0.6361387 | 0.7827567 | 0.9195205 | 0.2833818 | 0.1367638 |
| 第十一人左腳 | 0.7210669 | 0.8437953 | 0.9435827 | 0.2225158 | 0.0997873 |
| 右腳 | 0.6608476 | 0.7907395 | 0.9337314 | 0.2728839 | 0.1429919 |
| 第十二人左腳 | 0.7926802 | 0.8928860 | 0.9127581 | 0.1200779 | 0.0198721 |
| 右腳 | 0.7096743 | 0.8488205 | 0.9220002 | 0.2123259 | 0.0731798 |
| 第十三人左腳 | 0.5621696 | 0.7351018 | 0.7100528 | 0.1478832 | -0.0250490 |
| 右腳 | 0.6694438 | 0.8177545 | 0.9707575 | 0.3013137 | 0.1530030 |
| 第十四人左腳 | 0.6892286 | 0.8306041 | 0.9173961 | 0.2281676 | 0.0867921 |
| 右腳 | 0.6073787 | 0.7880062 | 0.9581669 | 0.3507883 | 0.1701608 |
| 第十五人好腳 | 0.4562632 | 0.6849085 | 0.8160320 | 0.3597687 | 0.1311235 |
| 壞腳 | 0.2044259 | 0.4676313 | 0.5017589 | 0.2973330 | 0.0341276 |
| 第十六人好腳 | 0.3970001 | 0.5546819 | 0.7550105 | 0.3580104 | 0.2003285 |
| 壞腳 | -0.0031033 | 0.0435435 | 0.3560340 | 0.3591373 | 0.3124905 |
| 第十七人好腳 | 0.4223822 | 0.5701120 | 0.8139385 | 0.3915563 | 0.2438265 |
| 壞腳 | 0.4580043 | 0.6277831 | 0.7638456 | 0.3058413 | 0.1360625 |
在比較新估計結果與原估計結果時,新定義(未修正)與原定義差距超過0.27的腳且新定義(修正後)與原定義差距超過0.12的腳有:第1人的左腳、第2人的雙腳、第5人的右腳、第10人的右腳、第11人的右腳、第13人的右腳、第14人的右腳以及15、16、17人的雙腳。 可以發現原先的抑制比估計(橘色)對於正常人與中風好腳來說,估計值十分相近,特別偏低的估計僅有中度中風患者與重度中風患者的壞腳。但以我們定義的未修正新估計(黃色)方式,除了中風患者的壞腳外,連好腳的估計值也可以被我們壓下來了,但第二人的右腳與第十人的左腳也是有偏低的狀況。使用修正後的新估計方式(綠色)雖然解決了直線矛盾問題,但整體的估計卻沒有比較好的區分效果,可能不能很好的表現抑制的概念。
我們可以從一開始的探索性資料分析與接下來的線性模型分析歸納出4個重點:
1.從模型觀察出的正常人與中風患者差異
正常人脛前肌與比目魚肌的抑制作用在脛前肌沒有那麼用力的時候會非常強烈(在X值偏小的時候,隨著X值的增加,Y會下降地非常快速);在脛前肌越來越用力後,抑制作用造成的效果會稍微趨緩些,爾後飽和。也就是當X值繼續增大後,我們會發現Y值的下降速度沒有一開始那麼快,抑制效果開始有了邊際效應,不斷遞減直到飽和。
中風患者的抑制關係不論好腳或壞腳,在脛前肌沒有那麼用力的時候就比正常人低了許多(在X值偏小的時候,隨著X值的增加,Y值的下降比正常人慢了許多);脛前肌繼續用力的抑制效果變化量與正常人相比也低了很多,正常來說這時候應該要非常快受到邊際效應的遞減,但中風患者的邊際效應沒有這麼強烈,圖形看起來會“比較沒有那麼彎”。中風患者比目魚肌的平均收縮大小低於正常人許多,甚至其分布範圍本來就比大部分正常人低了許多。
2.足以用來區分病人與正常人的特徵
我們於線性模型的分析中,得到了三個可以明顯區分正常人與病人的特徵:截距項係數、scaleX係數、scaleX平方的係數。這三個係數在統計數學上的解釋可以分別對應到Y值平均大小、估計曲線的切線斜率、估計曲線的轉彎程度,這三個特徵從一開始的探索性資料分析就已經出現了。而他們在人類肌肉上的解釋是比目魚肌的平均收縮大小、抑制效果的強度表現、抑制效果隨著脛前肌繼續收縮的邊際效應。
3.中風的好壞程度表現於中風患者的好腳
我們於探索性資料分析中,曾看到中風患者的好腳其實會根據其中風程度而有些微不同的斜率和曲度,整條曲線越像正常人其中風程度就會越低。在線性模型的分析中,我們也看到了中風的程度會表現於中風患者的好腳參數估計值與正常腳的估計值距離。
4.中風人好壞腳的同化現象
中風患者兩腳的平滑曲線很接近,與正常人的表現皆不同,有點像是中風患者的壞腳將其好腳的表現從正常腳拉至壞腳。在線性模型的參數估計也有類似的表現,好腳的各個估計值都偏離正常腳許多,與其壞腳很接近。
1.探索性資料分析中的平滑化方法-局部線性回歸
假設二元隨機樣本\((X_1,Y_1),\ldots,(X_n,Y_n)\)來自以下模型:
\[\begin{align} Y = m(X)+\varepsilon, \end{align}\]
其中,Y為連續反應變數,X為連續解釋變數,\(\varepsilon\)為誤差且滿足\(E(\varepsilon)=0\)與\(Var(\varepsilon)=\sigma^2\),X與\(\varepsilon\)相互獨立。
假設\(m(X_i)\)可以使用泰勒展開式進行逼近
\[\begin{align} m_p(X_i)=m(x)+m'(x)(X_i-x)+ \dots +m^{(p)}(x)(X_i-x)^p/p!, \end{align}\]
對於與x足夠近的\(X_i\),我們便可以估計\(m(x)=E(Y|X=x)\)及其導數\(m^{(v)}(x)\)。
所謂的局部多項式就是使用加權最小平方(weighted least squares)來局部擬合p階多項式\(m_p(X_i)=\sum_{k=0}^p \beta_{k}(X_i-x)^k\)藉由最小化:
\[\begin{align} \label{WLSS} \sum_{i=1}^{n}[Y_i-m_p(X_i)]^2K_h(X_i-x) = (\textbf{y}-\textbf{X}_p\beta)^T\textbf{W}_x(\textbf{y}-\textbf{X}_p\beta), \end{align}\]
其中,\(y=(Y_1,\dots,Y_n)^T\),\(\textbf{X}_p = [\textbf{1} \quad \textbf{x}_{1x}\quad \dots \quad \textbf{x}_{px}]_{n\times(p+1)}\)為設計矩陣且\(\textbf{1} = (1,\dots,1)^T\)長度為n的向量,\(\textbf{x}_{kx}=((X_1-x)^k,\dots,(X_n-x)^k)^T\),\(k=1\dots,p\),\(\beta = (\beta_0,\dots,\beta_p)^T\)與z有關,\(\textbf{W}_z=diag\{K_h(X_1-x),K_h(X_2-x),\dots,K_h(X_n-x)\}\)其中的\(K(\cdot)\)為非負且對稱的機率密度函數,h為平滑參數,\(K_h(\cdot)=K(\cdot/h)/h\)。
我們可將滿足加權最小平方的解寫成
\(\widehat{\beta}=(\widehat{\beta_0},\dots,\widehat{\beta_p})^T = (\textbf{X}_p^T\textbf{W}_x \textbf{X}_p)^{-1} \textbf{X}_p^T \textbf{W}_x \textbf{y}\),利用 \(\widehat{m}(x)=\widehat{\beta_0}\) 來估計 \(m(x)\),用 \(\widehat{m}_p^{(v)}(x)=v!\widehat{\beta}_v\) 來估計 \(m^{(v)}(x)\) (Fan and Gijbels 1996)。
至此,我們可將p階局部多項式的估計式\(m^{(v)}(x)\)寫成矩陣形式(使用與Aurore Delaigle, Jianqing Fan & Raymond J. Carroll 2009同樣的符號表示):
\[\begin{align} \label{mpd} \widehat{m}_p^{(v)}(x) = v!\textbf{e}_{v+1}^T(\textbf{X}^T \textbf{K} \textbf{X})^{-1} \textbf{X}^T \textbf{K} \textbf{y} \end{align}\]
其中,\(\textbf{e}_{v+1}^T = (0,\dots,1,\dots,0)\)表示除了第(v+1)元素為1其餘元素皆為0的向量,\(\textbf{y}^T=(Y_1,\dots,Y_n)\),\(\textbf{X}=\{ (X_i-x)^j \}_{1\leq i \leq n,0 \leq j \leq p}\),\(\textbf{K} = diag\{ K_h(X_j-x) \}\)。